Minicurso
XIII Jornada de Educação, Ciência e Tecnologia
IFMG - Campus Formiga
22 de outubro de 2024
Tópicos
Contexto
Atividades: Implementação do Ciclo de Análise de Dados com R + RStudio + Quarto
Tópicos
Quarto Dashboards.
Aplicativos Web com shiny.
Dashboards com shiny e shinydashboard.
Fonte: Consultoria Análise Macro
Modelo Referência do CRISP-DM
Ciclo de Análise de Dados da Consultoria Análise Macro
Desvantagens
Alto custo de licenciamento: : Os sistemas proprietários geralmente possuem custos de licenciamento altos. Podem existir custos adicionais para suporte técnico, treinamento e atualizações.
Falta de Flexibilidade: Os sistemas proprietários geralmente não são personalizáveis.
Falta de acesso ao código-fonte: O código-fonte dos sistemas proprietários não é acessível aos usuários.
Dificuldade em reproduzir análises: A falta de acesso ao código-fonte pode dificultar a reprodução de análises.
Por que?
As linguagens de programação R não são apenas gratuitas, mas também são de código aberto (open-source ) e multiplataforma.
Linguagens de programação são ótimas para reprodutibilidade.
Linguagens de programação são capazes de analisar dados de todas as formas e tamanhos.
Linguagens de programação têm comunidades engajadas e acolhedoras.
Possuem milhares de bibliotecas e ferramentas úteis.
Descrição
R é uma linguagem de programação de domínio específico, derivada da linguagem S, ambas foram criadas para analisar dados.
A linguagem R é capaz de analisar dados de todas as formas e tamanhos.
A linguagem R não é apenas gratuita, mas também é de código aberto e multiplataforma.
Analisar dados com a linguagem R é ótimo para reprodutibilidade.
A linguagem R (como toda linguagem de programação) não envolve cliques, e isso é uma coisa boa.
Passo a Passo
Acesse https://cloud.r-project.org/
Selecione o sistema operacional, clicando em Download R for Windows por exemplo.
Na página seguinte clique em base
Clique em Download R-4.4.1 for Windows
Feito o download basta ir clicando em próximo/next até a instalação ser concluída.
WICKHAM, Hadley; ÇETINKAYA-RUNDEL, Mine; GROLEMUND, Garrett. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 2nd. ed. 2023. O’Reilly Media, Inc. Disponível em: R for Data Science.
Tradução em Português disponível em: R para Ciência de Dados.
O que é o RStudio?
RStudio é um ambiente de desenvolvimento integrado (IDE) amplamente utilizado para programar em R.
Ele oferece uma interface amigável e intuitiva que facilita o desenvolvimento de código, análises de dados, visualização de gráficos e geração de relatórios.
O RStudio integra diversas funcionalidades em um único ambiente de desenvolvimento.
Passo a Passo
Em geral, o site detecta seu sistema operacional e disponibiliza o instalador adequado loga abaixo de 2: Install RStudio.
Clique em Download RStudio Desktop for Windows caso seu sistema operacional seja Windows.
Finalizado o download, basta clicar no arquivo e, em seguida, clicar em em continuar/avançar/next até o início da instalação.
Ambos os softwares são necessários
Você precisa ter a linguagem R e o RStudio instalados.
É possível utilizar diversos outros IDEs e editores: VS Code, etc.
Source
Source é o painel no qual são exibidos e onde podemos editar diversos tipos de arquivos, tais como: .R (script R) e .qmd (arquivo do sistema Quarto), entre outros.Console
Output
Este painel contém:
Aba Files:
Aba Packages:
Entre outras.
Packages (ou Pacotes)
Packages são extensões da linguagem R que fornecem funções e ferramentas adicionais para diversas tarefas.
Eles são desenvolvidos por uma comunidade vibrante de colaboradores e podem ser instalados de forma gratuita.
A CRAN apresenta mais de 21.000 pacotes disponíveis!
Descrição
A CRAN, ou Comprehensive R Archive Network, é o repositório oficial online de código e documentação da linguagem R e de seus pacotes. É uma rede de servidores distribuídos pelo mundo que armazenam versões idênticas e atualizadas da linguagem R e de seus pacotes.
Pontos de Atenção
Para instalar pacotes, de R ou Python, é necessária uma conexão ativa com a internet.
Pode ser necessário repetir a instalação devido à falhas na conexão, que faz com que os arquivos dos pacotes não sejam baixados completamente.
Usando um IDE como o RStudio, ou outro, precisamos instalar pacotes apenas uma vez.
Entretanto, para utilizar os pacotes já instalados, precisamos sempre carregá-los com library(nome_do_pacote)
O que são RStudio Projects?
Cientistas e Analistas de dados mantêm todos os arquivos associados a um determinado projeto juntos e organizados em pastas/diretórios — dados, scripts, relatórios, etc.
Esta é uma prática tão sábia e comum que o RStudio tem suporte integrado para isso por meio dos Projects.
Vantagens
Melhor Organização: Centraliza todos os arquivos relacionados em um único local, seguindo a boa prática de manter uma estrutura de diretórios organizada.
Código Portátil e Reprodutível: O uso de caminhos relativos e isolamento de ambiente promove a reprodutibilidade, uma pedra angular das boas práticas em ciência de dados.
Colaboração Facilitada: A integração com sistemas de controle de versão incentiva a colaboração e o controle eficiente de mudanças, essenciais em projetos em equipe.
Ambiente Consistente: O isolamento do espaço de trabalho assegura que o código seja executado em um ambiente consistente, reduzindo erros e aumentando a confiabilidade dos resultados.
O que é o sistema Quarto?
É um sistema de publicação científica e técnica (relativamente) novo, de código aberto
Visa tornar o processo de criação e colaboração dramaticamente melhor.
Com o Quarto, você pode unir texto narrativo e código para produzir produtos elegantemente formatados como documentos, páginas da web, postagens de blog, livros e muito mais…
Tipos de saída
Documentos: HTML, PDF, MS Word.
Apresentações: Revealjs, Beamer, PowerPoint.
Blogs, Websites.
Livros
…
Passo a Passo
Clique em Download Quarto CLI e, finalizado o download, instale clicando no arquivo.
Finalizado o download, basta clicar no arquivo e, em seguida, clicar em em continuar/avançar/next até o início da instalação.
“Yet Another Markup Language” ou “YAML Ain’t Markup Language” é usada para fornecer metadados do documento …
Inválido
Os Elementos de Markdown
Markdown foi projetada para ser fácil de escrever e ler:
Quarto usa versão estendida de Pandoc markdown.
Pandoc classifica o markdown em termos de elementos Inline e Block.
| Sintaxe Markdown | Saída |
|---|---|
|
Header 1 |
|
Header 2 |
|
Header 3 |
|
Header 4 |
|
Header 5 |
|
Header 6 |
Markdown permite que você formate texto em itálico e negrito. Você também pode adicionar sobrescritos2, subscritos2 e exibir código verbatim. Fato pouco conhecido: você pode também riscar texto e apresentá-lo em small caps.
1
Uma ou mais linhas de texto seguidas por uma ou mais linhas em branco.
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
Sed do eiusmod tempor.
Podemos usar *, - ou + para itens de listas não ordenados.
Lista Não Ordenada:
Lista Ordenada:
O Pandoc oferece muito controle sobre listas, incluindo aninhamento, listas sofisticadas, listas de definições, blocos em listas e listas de exemplos.
Você pode incorporar [links com nomes](https://quarto.org/) e URLs diretas
como <https://quarto.org/> em um documento.
A sintaxe é semelhante para incorporar uma imagem inline:
.Você pode incorporar links com nomes e URLs diretas como https://quarto.org/ em um documento. A sintaxe é semelhante para incorporar uma imagem inline: .
De onde vem o nome “Quarto”?
“Os estudantes não sabem o que precisam saber até que precisem saber.”
The Handbook for Economics Lecturers.